期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于层次注意力机制神经网络模型的虚假评论识别
颜梦香, 姬东鸿, 任亚峰
计算机应用    2019, 39 (7): 1925-1930.   DOI: 10.11772/j.issn.1001-9081.2018112340
摘要427)      PDF (958KB)(306)    收藏

针对虚假评论识别任务中传统离散模型难以捕捉到整个评论文本的全局语义信息的问题,提出了一种基于层次注意力机制的神经网络模型。首先,采用不同的神经网络模型对评论文本的篇章结构进行建模,探讨哪种神经网络模型能够获得最好的篇章表示;然后,基于用户视图和产品视图的两种注意力机制对评论文本进行建模,用户视图关注评论文本中用户的偏好,而产品视图关注评论文本中产品的特征;最后,将两个视图学习的评论表示拼接以作为预测虚假评论的最终表示。以准确率作为评估指标,在Yelp数据集上进行了实验。实验结果表明,所提出的层次注意力机制的神经网络模型表现最好,其准确率超出了传统离散模型和现有的神经网络基准模型1至4个百分点。

参考文献 | 相关文章 | 多维度评价
2. 基于神经网络模型的产品属性情感分析
刘新星, 姬东鸿, 任亚峰
计算机应用    2017, 37 (6): 1735-1740.   DOI: 10.11772/j.issn.1001-9081.2017.06.1735
摘要682)      PDF (897KB)(851)    收藏
针对基于词向量的神经网络模型在产品属性情感分析中效果不佳的问题,提出一种集成离散特征和词向量特征的开关递归神经网络模型。首先,通过直接循环图为语句建模,采用开关递归神经网络模型完成产品属性情感分析任务;然后,在开关递归神经网络模型中集成离散特征和词向量特征;最后,分别在流水线、联合、折叠三种任务模型中完成属性提取和情感分析任务。以宏观 F1分数作为评估指标,在SemEval-2014的笔记本电脑和餐馆评论数据集上做实验。开关递归神经网络模型的 F1分数为:48.21%和62.19%,超过普通递归神经网络模型近1.5个百分点,因而开关递归神经网络能够有效捕获复杂特征,提升产品属性情感分析的效果。而集成离散特征和词向量特征的神经网络模型的 F1分数为:49.26%和63.31%,均超过基线结果0.5到1个百分点,表明离散特征和词向量特征互相促进,另一方面,也表明仅仅基于词向量的神经网络模型仍有提升空间。三种任务模型中,流水线模型的 F1分数最高,表明应将属性提取和情感分析任务分开完成。
参考文献 | 相关文章 | 多维度评价
3. 基于无监督学习算法的推特文本规范化
邓加原, 姬东鸿, 费超群, 任亚峰
计算机应用    2016, 36 (7): 1887-1892.   DOI: 10.11772/j.issn.1001-9081.2016.07.1887
摘要631)      PDF (945KB)(311)    收藏
推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。
参考文献 | 相关文章 | 多维度评价
4. 基于递归自编码器的广告短语相关性
胡庆辉, 魏士伟, 解忠乾, 任亚峰
计算机应用    2016, 36 (1): 154-157.   DOI: 10.11772/j.issn.1001-9081.2016.01.0154
摘要585)      PDF (737KB)(399)    收藏
针对现有广告短语相关性研究成果多采用字面匹配,忽略了短语所包含的深层语义信息,限制了任务的性能等问题,提出了采用深度学习算法研究广告短语的相关性,采用递归自编码器(RAE)对短语进行深层结构分析,使得短语向量包含深层的语义信息,以此来构建广告语境下的短语相关性计算方法。具体地,给定一个包含若干词的序列,序列中所有相邻的两个元素尝试合并产生一个重构误差,遍历将重构误差最小的元素两两合并,形成类似哈夫曼树结构的短语树。采用梯度下降法最小化短语树的重构误差,采用余弦距离度量短语之间的相关性。实验结果显示,通过引入词语权重信息,加大了重要词语在最终短语向量表示中贡献的信息量,使得RAE更适合短语计算;比起传统LDA和BM25算法,在50%召回率的条件下,提出的算法的准确率分别提高了4.59个百分点和3.21个百分点,这证明了所提算法的有效性。
参考文献 | 相关文章 | 多维度评价